RDLY
.ru
Тренды
Статьи
Темы
Люди
LLM-as-a-Judge
2 статьи
1ч 49м
🎯 Афшин и Шервин об эволюции оценки LLM: от человеческой разметки до агентов-симуляторов
Stanford Online · 02.12.25 · 53,1 тыс. просм.
57 мин
🛠 Анкар Гоял (Braintrust) о том, как правильно оценивать AI-агентов
Greylock · 16.09.25 · 939 просм.